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В статье исследуются возможности современных средств для ускорения вычислений. Среди них: 
компьютеры, графические процессоры, распараллеливание алгоритмов и сжатие данных. Проанализированы 
стадии подготовки и выполнения задач на графических процессорах и приведены сравнительные оценки всех 
этапов выполнения программ на Отарблс$ Ргосеззте Опи.Сформулированы требования к задачам для их 
эффективного исполнения на графических процессорах. Предложена компонентная среда проектирования 
параллельных программ. Дана модификация алгоритма ГМ сжатия данных, позволяющая существенно 
увеличить коэффициент компрессии. 
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Введение 

При решении многих задач в области 
искусственного интеллекта возникает необ- 
ходимость, с одной стороны, построения 
сложных алгоритмов их решения, а с другой 
— обработки больших объемов данных. Дос- 
таточно обозначить проблему моделирова- 
ния функций человеческого мозга. Модель 
мозга состоит в построении системы, объяс- 
няющей физиологические функции мозга 
через известные законы математики, физики, 
химии с учетом современных достижений в 
нейрофизиологии и нейроанатомии. 

Основные результаты исследований 
теоретиков в этой области подтверждают, 
что главное свойство мозга определяется 
топологией сети нейронов и динамикой рас- 
пространения импульсов в ней, которые 
могут быть воспроизведены с помощью 
устройств, созданных человеком. 

Познания законов, лежащих в основе 
функционирования человеческого мозга, до 
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сих пор одна из сложнейших задач, над 
которой работают представители различных 
нейронаук. Международной командой уче- 
ных построена ЗО модель человеческого 
мозга с шагом в 20 микрон надеясь, что это 
поможет изучить его функции. 

Реально модель — это миллиарды 
нейронов и еще большее количество связей 
между ними, что делает задачу необычайно 
сложной. В связи с этим естественно про- 
сматриваются две задачи: повышение 
эффективности обработки алгоритмов и 
построение методов ускоренной работы с 
данными. 

Для решения этих задач необходимы 
быстродействующие вычислители, распа- 
раллеливание алгоритмов решения задач и 
данных. Так как над решением задач рабо- 
тают коллективы ученых из различных 
стран, то для ускорения обмена данными 
последние необходимо эффективно сжи- 
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мать. Ниже рассмотрим некоторые подходы 
для решения указанных проблем. 

Вычислительные системы 

Для решения сложных задач, как пра- 
вило, используются суперкомпьютеры, дости- 
гающие сотни петафлопс. Среди них в 50% 
редакции списка ТОР 500 (июнь 2018 г) 
приводятся суперкомпьютеры Зиттй (США) 
с производительностью 122.300/187.659 пета- 
флопс и бип\мау ТашиПае м (КНР) с произ- 
водительностью 93.015/125.436 петафлопс 
(реальная и пиковая) соответственно. Такое 
быстродействие достигается за счет большого 
количества ядер и широкого использования 
графических процессоров. 

Рассмотрим проблемы и достоинства 
использования графических процессоров (ОРУ 
— Огарыс$ Ргосеззте Опй), которые сегодня 
применяются как для графического ренде- 
ринга, так и для общих вычислений СРСРО 
(Сепега1 Ригрозе Огарыс$ Ргосеззте Опй). При 
исследовании возможностей СРО акценти- 
руем внимание на общие вычисления. 

Для выявления узких мест функцио- 
нирования СРО было выполнено ряд 
экспериментов с использованием техно- 
логии СОРА, являющейся кроссплатфор- 
менным программным приложением для 
операционных систем ПТлпих, МасОСХ и 
Утпдо\е. 

Технология СОРА выбрана в связи с 
тем, что она предлагает новый путь вычис- 
лений: кластерное моделирование потоков, 
$1МО-инструкции, произвольный доступ к 
памяти (зсавег или гафег), позволяет приме- 
нять разделяемую память, оптимизацию 
обмена данными между СРИ и СРО, 
возможность низкоуровневого программи- 
рования на ассемблере. Все это позволяет 
сделать более удобным процесс подготовки 
данных и сократить время вычислений. 


Технология СОРА — обеспечивает 
масштабируемость за счет трех ключевых 
абстракций: иерархии групп потоков, раз- 
деленной памяти и барьерной синхрониза- 
ции. Программисту следует разделить реша- 
емую задачу на ряд подзадач, которые будут 
выполняться независимо разными блоками 
потоков. Разделенная память и синхрони- 
зация дают возможность потокам работать 
вместе. Блоки могут выполняться на любом 
количестве доступных ядер СОРИ и в любой 
последовательности, что обеспечивает мас- 
штабируемость. Все потоки имеют доступ к 
единой глобальной памяти. Каждый блок 
потоков имеет разделенную память, которая 
видна всем потокам блока. 

Для анализа возможностей видеокарты 
был подготовлен ряд тестовых программ и 
проанализированы полученные результаты, 
некоторые из них приведены ниже. 

Тестирование и измерение времени 
выполнения различных этапов тестовых 
программ были выполнены на видеокарте 
МУШТА СЕЕРОВСЕ 9600СТ в следующей 
конфигурации: частота 1625000 МН?, коли- 
чество регистров на потоковый процессор 
8192, количество потоковых процессоров 
64, объем константной памяти 65536 байт, 
объем разделяемой памяти 16384 байт, 
максимальная размерность блока (Боск 
Читепз1юп) 512х512х64. 

Для сравнения измеряемых парамет- 
ров тестовые программы были выполнены 
на СРО ш& Соте 2 Рио с тактовой часто- 
той 1,8 ОН?. 

Для анализа производительности ОРЦ 
была протестирована программа умножения 
и последующего сложения матриц (АВС + 
РЕ), включая все накладные расходы. 
Полученные данные приведены в таблице 1. 


Таблица 1. Удельный вес выполнения каждого этапа программы 


Метогу аПосаНоп 546718 1,62% 
Сору Ааа Кот Бо$ {0 деу1се 10042897 29,76% 
Ехесиноп 155327 0,46% 
Сору Ааа Кот де\мсе ю Во 22239971 65,89% 
Сеап ир 766299 2,27% 


Из таблицы видно, что большую 
часть времени занимает операция копиро- 
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вания данных из памяти СРО к видеокарте 
и обратно. Время непосредственной обра- 
ботки занимает доли процента. 

Для достижения существенного уско- 
рения алгоритмы решаемых задач должны 
хорошо распараллеливаться на сотни пото- 
ков; содержать минимальное количество 
сложных для обработки операций: деле- 
ние, возведение в отрицательную степень 
и т.д.; незначительное количество ветвле- 
ний и минимальный объем обмена 
данными. 

Заметное ускорение достигается, 
если одни и те же инструкции применяют- 
ся для больших массивов данных. 

На уменьшение коэффициента уско- 
рения существенно влияют: время ожида- 
ния в коммуникациях, ограниченная про- 
пускная способность, неэффективные 
алгоритмы, значительные задержки при 
запуске большого количества процессов 
(планирование). 

Безусловно, для решения на СРО 
необходимо тщательно выбирать задачи. 
Основные приложения для ОРУ вклю- 
чают: моделирование в физике, обработка 
и анализ изображений, финансовые расче- 
ты, динамика газов и жидкостей, крипто- 
графия, обработка звука (методы сжатия), 
анализ данных (4айа што), моделиро- 
вание свертываемости белка, квантовая 
химия, вычислительная математика. 

В настоящее время графические про- 
цессоры трансформировались из уст- 
ройств с фиксированным набором функ- 
ций для обработки трехмерной графики в 
вычислительную платформу для общих 
вычислений (ОРОРО). По сути, теперь 
каждый, кому необходимо осуществлять 
быстрые вычисления, может иметь недо- 
рогой суперкомпьютер на рабочем столе. 
Компания пУ1Ча уже интегрировала язык 
С++ в свою технологию СОПА, что 
расширяет круг пользователей СРО. Тем 
не менее, многое еще необходимо делать 
вручную, например, создавать потоки и 
планировать доступ к памяти. 
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Распараллеливание программ 

Так как программа включает алго- 
ритм и данные, то рассмотрим некоторые 
вопросы их параллельной обработки. 

На сегодняшний день разработаны 
различные средства создания параллель- 
ных программ [4,5]. При этом каждая 
среда проектирования имеет свой набор 
инструментальных средств. Так, например, 
для языка С++ разработаны собственные 
многопоточные кроссплатформенные биб- 
лиотеки. Среди них: Ра(егиз Габгагу, Воо$ 
Тргеаа, Тьгеаат» Ви!ате В]оскК$ и другие. 

Несмотря на то, что иногда много- 
поточные С-+ программы менее эффек- 
тивны, чем созданные с помощью низко- 
уровневых средств, но зато имеют более 
высокую мобильность и скорость созда- 
ния. Для ускорения разработки программ и 
повышения их качества используют пат- 
терны параллельного программирования. 
Паттерн представляет собой архитектур- 
ную конструкцию, являющуюся образцом 
решения задачи, который после адаптации 
может быть преобразован в реальный код. 

Ниже идет речь о разработанной нами 
понятной для разработчиков методике 
проектирования параллельных программ [3]. 

В отличие от существующих исполь- 
зуются более общие модели многопоточ- 
ных программ и заметно упрощен процесс 
проектирования. И что необычайно важно, 
она может использоваться не только созда- 
телями программного обеспечения, но и 
студентами во время обучения процессу 
проектирования. 

Компонентами среды проектирова- 
ния являются: 

1. Общие паттерны, как каркас програм- 
мы, реализующий некоторую модель 
создания и функционирования потоков 
с реализацией коммуникаций, синхро- 
низации и балансирования нагрузки. 

2. Специализированные паттерны, кон- 
кретизирующие общие паттерны для 
определенного класса задач. 

3. Потокобезопасные контейнеры: век- 
тор, очередь и стек, работающих, 
например, с очередью заданий. 
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4. Мастер каркаса, представляющего 
собой оконный интерфейс пользо- 
вателя для настройки паттерна. 

Кроме того, имеется база готовых 
приложений и скрипты для экспериментов. 

Предлагаемая методика поддержи- 
вает все этапы проектирования параллель- 
ных программ: формирование функцио- 
нально независимых фрагментов, нахож- 
дение информационных зависимостей, 
масштабирование, планирование и анализ 
результатов. 

В помощь пользователю подготов- 
лены скрипты для автоматизации запуска 
многопоточной программы, получения и 
сохранения характеристик выполнения в 
файле в форме: время выполнения -— коли- 
чество потоков и вычисления показателей 
эффективности. Результаты экспериментов 
выдаются как в текстовом, так и в 
графическом виде. 

Результаты экспериментов показали 
снижение трудоемкости и подтвердили факт 
ускорения разработки параллельного кода 
при использовании предложенной методики 
по сравнению с универсальными средами 
программирования. Так, например, при 
умножении матриц с использованием моде- 
лей с равноправными узлами специализиро- 
ванный паттерн по сравнению с общим 
позволяет уменьшить время разработки 
программы примерно в 1,8 раза. 

Модификация алгоритма Гетре|- 
Ду-УУе!св (Т.7М) 

При коллективной работе над проек- 
том приходится многократно обменивать- 
ся промежуточными результатами. Это 
накладные, порой очень существенные, 
временные затраты. Для ускорения про- 
цесса передачи объекты следует сжимать. 
Существует сегодня ряд методов, позво- 
ляющих выполнить эту опцию. 

Ниже предлагается модификация 
известного алгоритма Г./\ [4] с целью 
увеличения коэффициента компрессии. 
Алгоритм Г/М заменяет строки символов 
некоторыми кодами, во время чего и 
осуществляется сжатие. 
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Рассмотрим суть модификации и 
продемонстрируем результаты ее работы 
на примерах. 

Степень сжатия определяется различ- 
ными факторами. Алгоритм, в частности, 
работает эффективно, если в потоке дан- 
ных встречаются повторяющиеся строки 
любой структуры. В связи с этим алгоритм 
позволяет сжимать текст на английском 
языке и различных копий экрана со 
степенью 50% и выше. Однако, в случае 
данных другой природы коэффициент 
сжатия существенно ниже, а иногда «сжа- 
тый» файл может превосходить по своим 
объемам исходный. Такой результат 
можем получить при сжатии фотореалис- 
тичных изображений со всей цветовой 
палитрой. Эти результаты инициировали 
работу по развитию алгоритма. 

Большинство изображений исполь- 
зуют 24 бита для информации о пикселе (8 
бит на каждую компоненту ВО В-палитры). 
Пусть имеем графический файл с 256-ю 
цветами. Если обозначить через м и В 
соответственно его ширину и высоту, 
тогда для хранения файла с такими пара- 
метрами изображения понадобится \/*В*3 
байта. Эти байты последовательно будут 
обрабатываться — алгоритмом — сжатия. 
Однако, если количество цветов не 
превосходит 256, что естественно для 
большинства приложений, можно про- 
индексировать три байта одним. Тогда 
\*р*3 байта при кодировке алгоритмом 
ГУМ! преобразуются в \*В, что значи- 
тельно уменьшает объем сжатого файла. 
Ясно, что для файлов существенного 
объема мы получим заметный выигрыш. 

Заметим, что данную модификацию 
алгоритма можно адаптировать как к одно- 
цветным, так и к полноцветным изображе- 
НИЯМ. 

Реализованный модифицированный 
алгоритм опробован на нескольких 
проиндексированных полноцветных изо- 
бражениях. Результаты приведены на 
рисунке 1 для алгоритма Г.М при 4, 8, 16, 
32, 64, 128 и 256 цветах соответственно. 


107 


Проведено сравнение по среднему 
коэффициенту сжатия для различных 


155М 1561-5359. Штучний 1нтелект, 2018, № 2 


классов цветных изображений (от 4-х до 
полноцветных). 


Сравнение коэффициентов сжатия 
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Рисунок 1. Диаграмма сравнений средних коэффициентов сжатия 


Как следует из рисунка 1, модифи- 
цированный алгоритм позволяет достичь 
увеличения коэффициента сжатия более, 
чем в 2 раза. 

Заключение 

Чтобы достичь желаемого ускорения 
при обработке сложных задач, необходимо 
интегрировать и использовать различные 
инструменты. Среди них: доступные аппа- 
ратные средства, в частности, графичес- 
кие, нейро- и квантовые вычислители, 
суперкомпьютеры. Выбор средств обус- 
лавливается спецификой решаемой задачи. 
Кроме того, по максимуму следует исполь- 
зовать средства распараллеливания алго- 
ритмов и сжатия данных, позволяющие не 
только ускорить процесс вычислений, но и 
сократить время коммуникации. Предла- 
гаемые в статье средства в значительной 
степени позволяют это сделать. 
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ВЕЗОМЕ 


М.К. Вои7а 

ЗоЙутаге апд Вагаутаге 5иррогЕ ог 
сотршайопа! асс@егайоп 

Тодау, Ше ргоел$ аге югишШае4, Ше 
сотр ехцу оЁ \ШсВ 94оез поЁ аШо\м ю 
пиретепе Фет оп ех1зИп® сотшрщеге. 
Атопе Фет: БаПАте а тоде! оЁ Фе Битап 
гаш, Фе зеагсь Кг ехтаетезила! пе]- 
Препсе, Фе омйош оГ Ше оп еащф, сПтае 
рге@сйоп апа оШег$. ш 11$ гесага, Фе ‘азК 
ОТ сгеайп? {001$ ю зрее4 ир са1сшайоп$ Ваз 
Бесоте игоеги. 

Тре регюгтапсе оЁ шо4егп зирег- 
сотршег$ 15 асшеуе 1агоеу дие №ю Ше 
шсмзюп ш ШФеш сотрозиоп оЁ а 1агое 
питьег о СРИ (СгарШсз Ргосезз те Чп19. 

Тре агас]е шуезИисаез Ше ЧШеген 
убарез оЁ ргерагайоп ап4 ехесийоп оЁ {азК$ 
оп Фе СРО ап Ше зреслЙс ехатр[ез аге 
сотрагайуе еуашаНоп оЁ Феи еЙесйуепез$. 
Е 15 $Во\уп ШФаё Фе поз ите-сопзитие 
базе 15 сору аа Вош 4е\мсе тю Во$. 
Ехатр![ез оЁ зо]ушФ ‘азК$ \уиБ Ще изе оГа 
сотршайопа! р!аМогт Юг Сепега| ригрозе 
сотрийпе. Кесотлтепдайопз$ оп Фе зеес- 
(оп ОЕ (азКз Юг еНесйуе ехесийоп оп Ше 
ОРУ аге глуеп. То зрее4 ир Ше 4ез1еп апа 
зомйоп оЁ сотр ех ргоетз, а рагаПе| 
ргоэтат 4ез1еп епугоптепЕ Базе оп Сепе- 
га! апа зресла12е4 райеги$, зесиге сошатегз 
ап а \шао\ изег пцеасе Юг райегп 
аЧлазитепе 15$ ргорозеа. ТВе тефо4 оЁ и$е 
{фе стеме епутоптепЕ 15 ргорозеа. И 
шс4ез Фе ЮПо\уше $ерз: Югтайоп оЁ 
ГапсйопаПу ша4ерепдеп Назтеп$, Аейпе- 
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поп 0Ё шЮгтайоп Дерепдепсе$, зсаПпэ®, 
р!аппте ап апа[у$1$ оЁ гези $. ТВе аз5ез- 
зтепЕ оГ фе епугоптепЕ еЁсепсу апа Фе 
агеа$ оГ аррйсаНоп аге глуеп. 

А тодсайоп оЁР фе ГУМ’ (Гетре]- 
Длу-УесВ) аеогит 1$ ргорозе4 {ю 5рее4 ир 
аа гап$пл15$1юп УВеп \уогкше (юзефег оп 
фе рго]есе. [ аПо\уеа юг союг ппазез (4 ю 
256) ю асшеуе шсгеазе сотргезз1оп. 'Т1$ 
питьЬег о со[огз 15 ‘урса1 юг п10$ё аррИса- 
боп$. Те тоФеа Г.7Х а]еогирт сап Бе 
аареЯ тю Бош зшее-союг апа Ра !-со]ог 
ппасез. ПиеотаПу ргорозе4 ВагА\уаге апа 
зоЙ\аге сап з1ютийсапИу зреед пир Ше 
ргосез$ оЁ зо]уше сошрШех ргоШетз Бу а 
(еат оЁ рег юогтегв. 
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